Open Source Processing
Geheimdienst zum Selbermachen
Referent: Frank Rieger
Der Begriff "Open Source Processing" lΣ▀t sich am einfachsten mit
"Verarbeitung von Daten, die ÷ffentlich zugΣnglich sind" beschreiben. Dabei
entstehen erst durch eine sinnvolle Filterung und Aufbereitung
Informationen. Werden Informationen so weit aufbereitet, da▀ sie
entscheidungsrelevant werden, kann man von Botschaften oder englisch von
Intelligence sprechen. Geht man von den einzelnen Daten aus, so lΣ▀t sich
durch 7 W-Fragen (Wer?, Was?, Wann?, Wo?, Mit wem?, Warum? und Womit?) ein
Ereignis ziemlich exakt beschreiben (der Referent, in der ehemaligen DDR
aufgewachsen, sprach von den "7 Stasi-Fragen"). Dabei k÷nen die
verschiedensten Formen von "Open Sources" genutzt werden, z.B. Bibliotheken,
deklassifizierte Daten, Zeitschriften und Zeitungen, kommerzielle
Informationsdienste und Datenbanken, CD-ROMs und das Internet.
Diese Informationsquellen werden nicht nur von Privatleuten genutzt; so
ziehen z.B. die Geheimdienste ca. 80% Ihrer Informationen aus offenen
Quellen. Diese werden dann weiterbearbeitet, und erst durch den Gewinn an
Informationsinhalt geh÷ren sie dann zu den Geheimdaten. Man geht davon aus,
da▀ der gr÷▀te Teil der Geheiminformationen der Geheimdienste aus
Zeitungsausschnittsammlungen besteht. "Altbundeskanzler Schmidt hielt die
'Neue Zⁿrcher Zeitung' fⁿr aktueller und akurater als
BND-Lageinformationen", wie Frank Rieger meinte.
Durch den rapiden Preisverfall bei Computerleistung und Speichermedien ist
es jetzt auch jedem Privatmenschen m÷glich, eine gro▀e Menge an Daten
zusammenzufⁿhren und nach pers÷nlich relevanten Kriterien zu verarbeiten,
dabei fa▀t eine 4 GB-Platte eine Volltext-Datenbank von 1 Million Seiten.
Eine m÷gliche Anwendung hierzu wurde am Rechner demonstriert, indem die
Daten der CD-ROM "D-Info" mit denen der CD "Gewu▀t wo!", einem
Branchenverzeichnis fⁿr bestimmte Gro▀rΣume, in diesem Fall die Stadt
Berlin, zusammengefⁿhrt wurden und so zu jeder Berliner Adresse eine
geographische Koordinate ermittelt wurde. Aus den 1,3 Millionen
Telefonteilnehmern Berlins konnte so ein "telefonischer Stadtplan" erstellt
werden, in dem die verschiedensten Suchen m÷glich sind:
- Telefonvermittlungsstellenbezirke
- die Bev÷lkerungsdichte, bzw. bei bekannter Bev÷lkerungdichte schlechter
situierte Randgebiete
- Stadtviertel mit einem hohen AuslΣnderanteil (Suche nach auslΣndischen
Vornamen/Namen)
- wenig besiedelte Gebiete mit einem hohen Anteil an Frauen als
Telefonanschlu▀inhaberinnen
- Standorte fⁿr Existenzgrⁿndungen
- Suchen nach nicht-gelisteten Telefonnummern, dabei ist eine Eingrenzung
auf wenige Stra▀en ist meist m÷glich, in lΣndlichen Gebieten manchmal sogar
eine Eingrenzung auf das einzelne Haus...
Eine Verknⁿpfung mit weiteren Datenquellen (Newsgroups, Homepages mit Foto,
T-Online-Kennung) erm÷glicht zu identifizierten Personen dann eine
Erstellung eines Personenprofils. Wenn man verschieden alte Daten
miteinander vergleicht, kann man mit verschiedenen Ausgaben der "D-Info"
z.B. schon Aussagen ⁿber Migrationen und VerΣnderungen der sozialen Struktur
erhalten.
Fⁿr die pers÷nliche Nutzung kann man sich zum Beispiel im Internet
umschauen, wo man eher das Problem hat, da▀ die Informationsmenge zu gro▀
ist und sie nur mit gro▀em Aufwand auf ein sinnvolles Ma▀ reduziert werden
kann. Man kann problemlos personenbezogene Informationen, Produkt- oder
Firmen-Informationen beschaffen. Einige Internet-Dienste bieten auch
Informationsprocessing an, so liefert z.B. Paperboy automatisch generierte
Pressespiegel des Tages und deckt dabei 90% der deutschen Zeitungen ab.
Sucht man Informationen ⁿber Personen und deren Interessensgebiete, so hilft
eine Abfrage bei Deja News. Wenn
man auf komerzielle Datenbanken oder Informationsdienste zugreift, so hat
man meist eine geradezu kryptische BenutzeroberflΣche und zahlt gelegentlich
gutes Geld fⁿr Informationen, die anderswo kostenlos erhΣltlich sind.
Au▀erdem geht man hier das Risiko ein, da▀ die Abfragen in Abfrageprofilen
ausgewertet werden.
Bei allen Informationen, die man sich beschafft, hat man aber immer gewisse
Probleme, und zwar zunΣchst die Bewertung der Glaubwⁿrdigkeit:
- Ist die Quelle bekannt?
- Gab es aus dieser Quelle schon Fehlinformationen?
- Besteht die Gefahr einer gezielten Desinformation?
- Wie sind die Eigentums- und Einflu▀verhΣltnisse bei der Quelle?
- Wie aktuell sind die Daten (gerade CD-ROMs sind oft schon veraltet, wenn
sie auf dem Markt sind)?
- Hat man parallele Quellen zur ▄berprⁿfung?
- Sind die Daten vollstΣndig?
Bei der Archivierung der Daten kommen dann die nΣchsten Probleme: Die
Datenmengen und Informationsvielfalt macht kooperatives Arbeiten mehrerer
Personen notwendig. Eine sinnviolle Indexierung ist schwierig; die
InformationsqualitΣt lΣ▀t sich nicht aus der Anzahl der verwendeten Quellen
ableiten. Der Flu▀ der Aufbereitung (Data -> Information -> Intelligence) mu▀
beherrscht werden.
Insgesamt wurde gezeigt, da▀ sich heutzutage sehr genaue
Informationssammlungen auch von Privatleuten mit vertretbar geringem Aufwand
erzeugen lassen. Deshalb mu▀ man auch mit seinen eigenen Daten entsprechend
bewu▀t umgehen, da Firmen die verfⁿgbaren Informationsquellen in jedem Fall
auswerten - ganz zu schweigen von den Geheimdiensten.
Derk Marko Reckel